数据资源 | 重磅!2014年工业企业数据库质量调查报告
启研学社由知名学者担任学术顾问,高校师生与企研数据科学团队联合组建,以大数据资源及相关技术助力中国学术与智库研究为宗旨的研究组织。团队当前的主要目标是挖掘经济社会大数据资源在学术和智库领域的应用价值,开展学术大数据治理研究,以及探索大数据分析技术融入中国经济社会研究的可行进路。
前言
自从中国规模以上工业企业数据库(以下简称“工业库”)出现以来,其巨大的学术应用价值和令人喜忧参半的数据质量甚至成了学术圈茶余饭后的谈资,也因此出现了一系列讨论该数据库应用和质量的学术论文。
此前学术界应用的数据截止到2013年。喜大普奔,近期又在互联网上发现了更新的消息。面对新到手的2014年工业库微观数据(以下简称“2014年工业库”),启研学社的数据质量评测小组就对数据进行了质量调查。本次评测基本采用了最近一篇相关论文(即陈林2018年发表在《经济评论》上的《中国工业企业数据库的使用问题再探》一文 )的检测思路。
下面就让我们来看看这个评测的过程。
第一步:检查数据量
基本结论
与官方统计数据存在较大差距,且14.36%的数据存在法人代码信息重复。
分析过程
简单统计2014年工业库的数据量,原始数据有309138条记录,根据《中国统计年鉴2015》公开数据显示,2014年共有377888家规上工业企业,不考虑数据重复,该数据库缺少的数据量达到了68750条。
进一步统计,2014年工业库企业名称不存在重复。而法人代码的重复记录较多,达到了44387条(占总数据量的14.36%),疑似涉及到20297家企业。此外还存在4845条法人代码为空的记录。根据以上统计数据,该份2014年工业库从数据量上来看,存在一定的质量问题的疑虑。
知识园地
对于一家企业而言,法人代码(组织机构代码)是当时企业在全国范围内唯一的、始终不变的代码标识,2015年后,国务院开始建立统一社会信用代码制度,而其构成之一就是组织机构代码(更为具体的说明请参见往期推文:数据清理丨如何用机构代码唯一识别企业(科普篇))。与此同时,企业注册登记信息之一就有统一社会代码。因此,我们可以通过工业库的法人代码与工商企业数据库的统一社会信用代码进行信息连接,通过对比其他信息是否吻合来判断数据真伪,若能吻合,则为正确信息,反之,则为错误信息。
表1 关键数据对比情况
第二步:检验法人代码重复部分
基本结论
经过比对,44387条法人代码重复数据通常会存在一条疑似真实的企业信息数据(以下简称“真实数据”)。经统计20297条为真实数据,其余部分为信息错误数据。
分析过程
基于前文有关组织机构代码与统一社会信用代码的逻辑,我们对法人代码存在重复的44387条记录做进一步考察。为了便于读者理解,我们从2014年工业库数据中选取三组实际案例数据,通过对比观察来验证数据是否正确。
案例一:法人代码732932321
(错误数据)威县远达制鞋有限公司 --> 582445826
案例二:法人代码732947806
(错误数据)广州市拉斐凯利纺织服装有限公司 --> 563980073
案例三:法人代码73298480X
(错误数据)广州市兴联达塑料制品有限公司 --> 563967426
案例一中,2014年工业库数据中,“威县远达制鞋有限公司”和“威县聚力棉业有限公司”的法人代码均为“732932321”。通过查询国家企业信用信息公示系统(http://www.gsxt.gov.cn),“威县远达制鞋有限公司”的统一社会信用代码为“91130500582445826M”,即组织机构代码为“582445826”;“威县聚力棉业有限公司”的统一社会信用代码为“91130533732932321F”,即组织机构代码为“732932321”。也就是说,在2014年工业库数据中,前者为错误数据,后者才是真实数据。利用同样的方法可以检验出案例二与案例三中的错误数据与真实数据。
第三步:对比检查不同年份的数据
基本结论
数据并非从以往年份中复制而来。
分析过程
按照以往的经验,一种常见伪造数据的方式是将当年以外年份的(可能)真实的数据复制过来当作当年的数据。对这种可能性,我们也做了核对。
我们根据2014年工业库中企业法人代码,从1998年-2013年筛选出含有这些法人代码的企业信息,将这些数据合并成一个非平衡面板数据,进而检验数据是否有挪用的现象。
经检查,2014年的数据并非从其他年份中复制过来,从这个角度来看,2014年工业库数据似乎并无此类造假痕迹,只是数据质量较差。
第四步:检验资本项
基本结论
存在55130条资本项不对应以及47420条个人资本为负的数据异常情况,相较其他大多数年份,至少数据质量较差。
分析过程
这里我们根据资本项是否对应来进一步检测数据真伪(质量)。资本项不对应是指实收资本 ≠ 国家资本 + 集体资本 + 法人资本 + 个人资本 + 港澳台资本 + 外商资本。我们将1998-2013年工业库及2014年工业库逐年统计资本项不应的数据量。具体数值如表2所示,可以看到,除去2008-2010年由于缺乏相应字段而无法统计外,2014年工业库资本项不对应的个数最多,达到了55130例,占当年数据总记录数的17.83%,而其他有数据的年份则全部在1000例以下,从这个角度可以看出,2014年的数据质量同样存在较大的问题,即使它是真实的。
表2 历年工业企业数据库中资本项不对应数量统计
进一步地,我们统计了实收资本以及六个资本细项数值的正负个数,根据下表对比可知,2014年工业库中个人资本项存在明显异常。从这角度,可以看到2014年的数据存在问题。
表3 历年工业企业数据库资本项为负数的数量统计
第五步:检验资本结构
基本结论
2014年数据有违历年整体发展趋势,反映出数据至少存在质量问题。
分析过程
我们根据陈林《中国工业企业数据库的使用问题再探》一文对国有企业与民营企业的划分,统计出国有/民营企业数量、国有/民营企业主营业务收入总额、国有/民营企业户均规模三组数据以及国有企业民营企业的总收入的比例,具体情况如表4所示。
“国有企业:
①:国有资本占实收资本总计比例大于 50%;
②:“控股情况”为“国有绝对控股”或“国有相对控股”;
③:“法人资本”为零、同时国有资本为最大资本。
民营企业:
①:个人资本占实收资本总计比例大于50%;
②:“控股情况”为“私人控股”;
③:“法人资本”为零、同时个人资本为最大资本。
”
从下表可以看到以下现象:
从企业数量的趋势来看,国有企业自1998年开始呈现出下降的趋势,民营企业与之相反,呈现出不断增长的态势,而2014年的统计情况却有违这种趋势; 从国有企业与民营企业主营收入总额的趋势来看,2014年民营企业的总收入相较2013年有一个较大的下滑,同样存在逆趋势的现象; 从国有企业民营企业的总收入比例来看,该比值自1998年到2013年始终呈减少的趋势,但在2014年依旧表现出异常的特点; 从国有/民营企业户均规模的数值来看,国有企业户均规模在2014年又表现出大幅减少的现象,而民营企业则呈现出逐年增大的趋势。
表4 历年工业企业数据库国有企业、民营企业的相关统计
结语
通过以上五个步骤,我们对2014年工业库数据的真实性和数据质量进行了初步检验。从检验结果来看,我们暂时还无法断言这是一份虚假数据。尽管第三步检验未发现明显造假痕迹,但无论从数据量、资本项还是资本结构来看,这份数据均存在明显异常。因此,我们有理由怀疑这是一份存在质量问题的数据。
在这里,谈谈我们的感想,即对待一份“来历不明”的数据,我们绝对不能奉行“拿来主义”,而应该对其进行认真的辨别之后再为我所用。当然,本文仅作抛砖引玉之言,我们期待看到关于这份数据更多的讨论。
点击阅读原文,进入CCAD数据库
·END·
星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
文 | 叶武威
审核 | 杨奇明 施丹燕
排版编辑 | 青酱
欢迎扫描👇二维码添加关注